在談開放資料怎麼解決問題之前,先來說政府釋出開放資料的情形好了。近年來,越來越多人強調資料的價值,雖然政府釋出資料的意願越來越提升,但釋出的資料集好像逐漸成為政府的 KPI 一樣。無論是中央或地方政府都是。
放眼望去,中央政府的開放資料集有 41510 個(截至 9/22)
但是資料集的品質相當參差,有遇過超級完善的資料集,也有遇到過完全不知道欄位意思或是資料裡面放的到底是什麼?
稍微翻了一下,找到一個資料集長這樣:
106年度行政院農業委員會種苗改良繁殖場單位預算
然後點進去看 JSON 格式,內容是這樣:
{
"名稱": "106年度行政院農業委員會種苗改良繁殖場單位預算",
"連結": "http://www.tss.gov.tw/view.php?catid=519"
}
]
資料集裡面只放了名稱跟連結,好哦,那我們點進去看連結裡面是什麼好了。
結果居然是 404 Not Found
?
所以說這是一份沒有用的資料?
我大概花了一分鐘就找到這份資料,代表這樣品質的資料並不難找;而四萬多筆的資料集,我不清楚這種品質的資料佔了多少的比例。比起資料集的多寡,資料集的品質還是重要一些,包括欄位的說明跟格式,對於開發者而言才是真正有用的。
雖然前面舉了一個沒有用的資料集,其實平臺上也有很多完善的資料集。參加競賽的經驗讓我學到,開放資料是可以拿來解決問題的。
市面上有很多 app 就是套用開放資料來解決問題,舉例來說,像是等公車的 app,可能就可以拿公車動態
這類的開放資料做開發。
如果你的目標是想要拿開放資料來參加各類型比賽,那你可以從開放資料集分類下手
競賽通常會限定主題,可以朝競賽類型去找相關的資料集。不過很多競賽也會鼓勵不同類型的資料做混搭。舉個例子,假設今天參加了旅遊相關的資料開發,你可能很直覺地會找各縣市旅遊景點等等作為視覺化之類的。這時候如果你又找了一份各縣市醫院院所的位置將這兩份資料集結合,那是不是又可能可以開發出一款,幫助旅人在外病傷時能快速找到醫療院所的應用呢?
我的個人經驗而言,每當我們參加競賽,卻不知道該做哪些主題時,就會去開放資料平臺晃晃,無論是中央或地方都好。找到合適的資料集做應用,自然可以從資料集找到問題,再從資料下手實作出答案。像是公車 app,醫療院所站點 app,很多都可以是開放資料應用的方向呢。